非平行的多域语音转换方法(例如Stargan-VC)在许多情况下已被广泛应用。但是,这些模型的培训通常由于其复杂的对抗网络体系结构而构成挑战。为了解决这个问题,在这项工作中,我们利用最先进的对比学习技术,并将有效的暹罗网络结构纳入Stargan歧视者。我们的方法称为Simsiam-Stargan-VC,它提高了训练稳定性,并有效地防止了训练过程中的歧视者过度拟合问题。我们对语音转换挑战(VCC 2018)数据集进行了实验,并进行了用户研究,以验证我们的框架性能。我们的实验结果表明,Simsiam-Stargan-VC在客观和主观指标方面显着优于现有的Stargan-VC方法。
translated by 谷歌翻译
深度神经网络可以捕获查询和文档之间的复杂交互历史信息,因为它们的许多复杂的非线性单元,使它们能够提供正确的搜索建议。但是,在现实情况下,服务提供商经常面临更复杂的障碍,例如部署成本限制和公平要求。已经提出了将训练有素的复杂模型(教师)转移到简单模型(学生)的知识的知识蒸馏,以减轻前者的关注,但最佳当前蒸馏方法仅着重于如何使学生模型模仿教师模型的预测。为了更好地促进深层模型的应用,我们建议基于知识蒸馏的公平信息检索框架。该框架可以改善模型的基于暴露的公平性,同时大大降低模型大小。我们在三个巨大数据集上进行的广泛实验表明,我们提出的框架可以将模型尺寸降低到其原始尺寸的最小1%,同时保持其黑盒状态。它还将公平性能提高15%〜46%,同时保持高水平的建议效率。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
非平行的多与众不同的语音转换仍然是一项有趣但具有挑战性的语音处理任务。最近,基于有条件的自动编码器的方法AutoVC通过使用信息限制的瓶颈来删除说话者身份和语音内容,从而实现了出色的转换结果。但是,由于纯粹的自动编码器训练方法,很难评估内容和说话者身份的分离效果。在本文中,一个新颖的语音转换框架,名为$ \ boldsymbol t $ ext $ \ boldsymbol g $ uided $ \ boldsymbol a $ utovc(tgavc),提议更有效地将内容和音色与语音分开,其中预期的内容嵌入其中根据文本转录生产的旨在指导语音内容的提取。此外,对对抗性训练将用于消除从语音中提取的估计内容中的说话者身份信息。在预期内容嵌入和对抗培训的指导下,对内容编码器进行了培训,以从语音中提取嵌入说话者的内容。 Aishell-3数据集的实验表明,所提出的模型在自然性和转换语音的相似性方面优于AUTOVC。
translated by 谷歌翻译
语音情感识别(SER)有许多挑战,但是主要挑战之一是每个框架都没有统一的标准。在本文中,我们提出了Speecheq,这是一个基于多尺度统一度量的统一SER任务的框架。该指标可以通过多任务学习(MTL)培训,其中包括情感状态类别(EIS)和情感强度量表(EIS)的两个情感识别任务,以及两个音素识别和性别识别的辅助任务。对于此框架,我们构建了一个普通话SER数据集-Secemeeq数据集(SEQD)。我们对普通话的公共CASIA和ESD数据集进行了实验,这些实验表明我们的方法比基线方法相对较大,分别获得8.0 \%和6.5 \%的准确性提高。关于Iemocap的其他实验,具有四个情感类别(即生气,快乐,悲伤和中性)也表明所提出的方法达到了78.16%的加权准确性(WA)的最新方法,并且准确性不体(UA) 77.47%。
translated by 谷歌翻译
尽管深度神经网络(DNNS)在音频分类任务中取得了巨大的成功,但它们的不确定性校准仍未得到探索。当它确定其预测时,应进行良好的模型应准确,并表明何时可能不准确。在这项工作中,我们研究了深度音频分类器的不确定性校准。特别是,我们从经验上研究了流行校准方法的性能:(i)蒙特卡洛辍学方法,(ii)集合,(iii)局灶性损失和(iv)光谱范围差异高斯工艺(SNGP),在音频分类数据集上。为此,我们评估了(I-IV),以应对环境声音和音乐流派分类的任务。结果表明,未校准的深度音频分类器可能过于自信,并且SNGP在本文的两个数据集中表现最好,并且非常有效。
translated by 谷歌翻译
目前,联邦图神经网络(GNN)由于其在现实中的广泛应用而没有违反隐私法规而引起了很多关注。在所有隐私保护技术中,差异隐私(DP)是最有希望的,因为它的有效性和轻度计算开销。但是,基于DP的联合GNN尚未得到很好的研究,尤其是在子图级环境中,例如推荐系统的情况。最大的挑战是如何保证隐私并在联邦GNN中解决非独立和相同分布的(非IID)数据。在本文中,我们提出了基于DP的联合GNN DP-FEDREC来填补空白。利用私有集合交叉点(PSI)来扩展每个客户端的本地图,从而解决了非IID问题。最重要的是,DP不仅应用于权重,而且应用于PSI相交图的边缘,以完全保护客户的隐私。该评估表明,DP-FEDREC通过图形扩展实现了更好的性能,而DP仅引入了很少的计算开销。
translated by 谷歌翻译
In this work, we focus on instance-level open vocabulary segmentation, intending to expand a segmenter for instance-wise novel categories without mask annotations. We investigate a simple yet effective framework with the help of image captions, focusing on exploiting thousands of object nouns in captions to discover instances of novel classes. Rather than adopting pretrained caption models or using massive caption datasets with complex pipelines, we propose an end-to-end solution from two aspects: caption grounding and caption generation. In particular, we devise a joint Caption Grounding and Generation (CGG) framework based on a Mask Transformer baseline. The framework has a novel grounding loss that performs explicit and implicit multi-modal feature alignments. We further design a lightweight caption generation head to allow for additional caption supervision. We find that grounding and generation complement each other, significantly enhancing the segmentation performance for novel categories. We conduct extensive experiments on the COCO dataset with two settings: Open Vocabulary Instance Segmentation (OVIS) and Open Set Panoptic Segmentation (OSPS). The results demonstrate the superiority of our CGG framework over previous OVIS methods, achieving a large improvement of 6.8% mAP on novel classes without extra caption data. Our method also achieves over 15% PQ improvements for novel classes on the OSPS benchmark under various settings.
translated by 谷歌翻译
参考图像分割(RIS)旨在通过输出给定文本描述的相应对象掩码连接图像和语言,这是一项基本的视觉语言任务。尽管RIS取得了很多进展,但在这项工作中,我们还是探索了一个基本问题:“如果描述是错误的或文本描述的误导怎么办?”。我们将这样的句子称为否定句子。但是,我们发现现有作品无法处理此类设置。为此,我们提出了一种新颖的RIS,称为Robust Robust Toemustring图像分割(R-RIS)。除了定期给出的文本输入外,它还考虑了否定句子输入。我们通过增加输入负面句子和一个新的指标来统一两种输入类型,提出三个不同的数据集。此外,我们设计了一个名为RefSegformer的新的基于变压器的模型,在其中引入了基于令牌的视觉和语言融合模块。通过添加额外的空白令牌,可以轻松地将此类模块扩展到我们的R-RIS设置。我们提出的RefSegormer在三个常规RIS数据集和三个R-RIS数据集上实现了新的最新结果,这是用于进一步研究的新基线。项目页面位于\ url {https://lxtgh.github.io/project/robust_ref_seg/}。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译